数据整合与标准化语言采集是未来大数据发展的方向
王晋 天津市第一中心医院
在收集数据的过程中,由于各机构所收集的数据表述方式不一致,使得数据重复、无效、冗余的情况频频出现,最终也导致不同机构的数据库无法对接。来自美国 St. Jude儿童研究中心的首席信息官、高级副总裁Keith Perry认为,目前的许多数据库是由单独的预防、研究和临床部门产生的,各机构相互之间无对应接口,因此缺乏一个整合这些不同机构信息的潜在平台。
今年1月末, 美国总统奥巴马宣布成立由副总统乔·拜登领导的Moonshot特别小组。这一举措旨在通过扫除官僚政治的一些障碍来缩短癌症治愈研究的时间,加快癌症预防、治疗、治愈的进程。拜登表示最大的困难是解决是临床数据的孤岛问题,他呼吁整合整个科学界的数据和研究结果。这一呼吁得到了谷歌投资的大数据初创公司Tamr的回应。2016年3月21日,Tamr在官网上也发布了一封给副总统拜登的公开信(图1),提出了数据标准化和数据整合是美国抗癌计划实施的两大障碍,并在公开信中给白宫提出了三点建议(图2)。第二条就是先解决操作性与统一性的问题,其中提到因为大多数癌症研究机构甚至不能查看所有他们已经在研究的数据,更不能有效地与外部进行数据交互。所以这个行动计划需要打破数百个,甚至数千个企业间信息孤岛的状态。
图1 公开信
图2 公开信内容节选
美国FDA 要求,在今年年底前,医疗实验的数据记录要遵循临床数据交换标准协会(CDISC)所要求的标准(这一标准有利于帮助临床研究数据和元数据的提交、获取、交换以及存档)。但是把诊疗数据转变为CDISC形式需要消耗大量的人力和财力,这会影响到数据的分析与解读。
因此,加快数据库对接成为一项艰巨的任务。除了数据库的对接,还需要注意的是数据采集的规范性。就护理专业来说,采集数据前一定要制定统一的规范,例如使用全国性的标准化的护理术语并做到持续更新。同时还应该推荐并坚持使用基于研究的、已经达成国际共识的评估量表和工具(例如图3,新生儿apgar评分表)。医疗机构应该重视和培养护理信息专家,护理信息专家应该得到正规的护理信息学培训、教育和资格认证,使其在健康信息科技的概念、设计、实现和优化方面提供有价值的想法,支持护理循证实践、教育和研究,以达到预期的效果。
图3 新生儿apgar评分表
参考文献:
1. 动脉网大数据初创公司Tamr,为白宫抗癌行动建言献策 http://www.vcbeat.net/30556.html
2.健康界人人都在说的大数据,和护理有什么关系?http://www.cn-healthcare.com/article/20150701/content-475661.html
更多精彩内容: